arxiv：2401.07333v1 [cs.cl] 2024年1月14日__

arxiv：2401.07333v1 [cs.cl] 2024年1月14日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2401.07333v1 [cs.cl] 2024年1月14日

¥ 1.0

热度

基于声学和语言提示的语言模型（LM）方法，例如Vall-e，在零击音频产生的领域取得了显着的进步。但是，iS iSTing方法仍然存在一些局限性：1）由于音频和音素令牌之间有限的对齐约束，导致输出综合语音的重复，换位和遗漏； 2）使用自动化语言模型对综合语音进行细粒度控制的挑战； 3）由于基于AR的编码的性质，尤其是在贪婪策略下，无限的沉默产生。为了减轻这些问题，我们提出了Ella-V 1，这是一个简单但有效的基于LM的零击文本对语音（TTS）框架，可以在音素级别对合成音频进行细性的控制。ELLA-V的钥匙是声学和音素令牌的序列序列，在该序列中，音素令牌出现在相应的声音令牌之前。表现出的发现表明，我们的模型在准确性方面执行了VALL-E，并使用基于贪婪和采样的解码策略提供了更稳定的结果。Ella-V的代码将是开源的，以清理2。音频样本可在https://ereboas.github.io/ellav/上找到。

添加pdf代下载 VIP点击下载文件